人工智能(AI)在1956年的达特茅斯会议上被罚款,因为它可以从其环境中收集信息并在其中采取有效的行动。Minsky在MIT的小组在1970年开发了一个机器人系统,称为“复制演示”,观察到了“阻止世界”场景,并成功地重建了观察到的Polyhe-dral块结构(Winston,1972)。由观察,计划和操纵模块组成的系统表明,这些子问题中的每一个都是高度挑战性的,需要进一步研究。因此,AI领域碎片分为专门的子场。尽管这些子领域在依赖方面取得了重大进展,但这种过度还原主义模糊了AI研究的总体目标。要超越当前状态朝着更复杂的AI迈进,我们强调了拥抱Aris-Totle的整体哲学的重要性,这强调了综合量超过其各个部分的总和。大语言模型(LLM)和视觉语言模型(VLM)的最新进展在识别开放世界上下文中识别语言和图像的潜力很大(OpenAI,2023年)。为止,LLM的先进语义处理已被用来将人类的指导分解为机器人的高级任务(Wake等人,2023c,d)。但是,即使对于GPT-4V(ISION),这些现有的多模式基础模型仍然面临着需要采取行动预测的细粒度操作方面的挑战。此外,因此,提出了一种新的体现的代理基础模型(Durante等人,2024b),它可以使语言水平,视觉认知,文本记忆,直觉推理,并可以预测具有适应性的体现动作。这是第一项通过从机器人技术,游戏和医疗保健任务中收集的全体数据来验证开发通用AI代理的基础模型的第一项研究。一种体现的代理被概念化为一种与人类通信并通过其感知能力与环境交互的媒介系统,采用与人类意图保持一致的行动。这就是为什么我们将大型体现基础模型的进步作为对代理AI的重要贡献的原因,使系统能够从各种域信息,动作,自然语言指令和多模式环境中解析和推断人的意图。
主要关键词